Cloudflare veut monétiser l’indexation des sites par les robots d’IA

Cloudflare veut monétiser l’indexation des sites par les robots d’IA

Cloudflare veut monétiser l’indexation des sites par les robots d’IA

Cloudflare proposera bientôt aux éditeurs de sites Web une place de marché via laquelle ils pourront décider comment et selon quelles modalités financières les robots d’indexation des grands modèles de langage accèdent à leurs contenus.

Comment contrôler la façon dont les robots qui nourrissent les grands modèles de langage (LLM) accèdent au contenu ? L’Américain Cloudflare, connu pour ses solutions de CDN (Content Delivery Network), a dévoilé lundi sa réponse, à la fois technique et commerciale, à cette problématique qui se pose aujourd’hui à la plupart des groupes média. Outre la mise en place d’outils de blocage et de mesure, il promet la création, à court terme, d’une place de marché destinée à centraliser les échanges commerciaux entre éditeurs et opérateurs de LLM.

Reprendre le contrôle sur l’indexation

Cloudflare annonce dans un premier temps la mise en ligne d’une série d’outils dédiés à la mesure et au suivi de l’utilisation réellement faite des contenus par les robots d’indexation. Ce tableau de bord, qui permet d’identifier les robots, surveiller la fréquence de leur passage ou la quantité de pages indexées, reprend par ailleurs l’option de blocage « en un clic » proposée par Cloudflare depuis juillet dernier. Une problématique qui n’a rien de trivial, dans la mesure où les robots d’indexation des LLM ne se déclarent pas toujours nommément lors de la connexion au serveur, ce qui limite les possibilités de blocage manuel, réalisé par exemple au moyen des fichiers .htaccess ou robots.txt.

« Ces données sont accessibles à tous les sites connectés via Cloudflare et n’exigent aucune configuration. Nous espérons que ce nouveau niveau de visibilité incitera les équipes à prendre une décision quant à leur exposition aux robots d’indexation des IA », résume l’entreprise. Au-delà de la prise de décision, Cloudflare présente aussi son tableau de bord comme un outil de surveillance pour tous les éditeurs qui auraient déjà formalisé, d’une façon ou d’une autre, un accord avec les grands noms de l’IA.

Ouvrir une voie aux négociations commerciales

L’étape suivante devrait quant à elle consister en un outil d’intermédiation commerciale. « Nous pensons que tous les sites, quelle que soit leur taille, devraient être en mesure de déterminer la compensation liée à l’utilisation de leurs contenus par les modèles d’IA. L’annonce d’aujourd’hui préfigure une nouvelle fonctionnalité Cloudflare de monétisation qui donnera aux éditeurs les outils pour fixer les prix, contrôler l’accès et capter la valeur liée au passage en revue de leurs contenus ».

L’outil trouvera-t-il son marché ? Au-delà de l’adhésion des éditeurs de sites, qu’on imagine assez enclins à monétiser leurs contenus, tout l’enjeu pour Cloudflare va consister à faire venir autour de la table les grands opérateurs d’IA, lesquels ne négocient pour l’instant qu’avec des acteurs de premier plan, via des accords de gré à gré, et pas toujours de bonne grâce.

OpenAI, éditeur de ChatGPT et attaqué en justice fin 2023 par le New York Times pour infraction au droit d’auteur, a par exemple signé de grands contrats cadres aux modalités confidentielles avec le groupe NewsCorp de Rupert Murdoch ou avec Condé Nast. En France, OpenAI s’est également attiré les faveurs du groupe Le Monde en début d’année, mais mène aujourd’hui la vie dure à l'Alliance de la presse d'information générale et au Syndicat des éditeurs de presse magazine, qui tentent d’ouvrir des négociations groupées, comme l’a récemment révélé La Lettre.

À défaut d’influencer les choix stratégiques des grands éditeurs de LLM, l’outil et l’annonce de Cloudflare auront peut-être le mérite de sensibiliser les éditeurs de sites à la question du scraping de leurs contenus. En juillet dernier, l’entreprise indiquait que sur le million de sites Web les plus fréquentés de ses clients, 39 % étaient indexés par les robots d’IA, alors que seuls 2,98 % des sites faisaient l’objet de mesures de protection.

Commentaires (2)


Le Github par ici: https://github.com/ai-robots-txt/ai.robots.txt
Voilà de quoi faire râler aussi bien OpenAI, Microsoft, Google, ...

Pas une mauvaise chose ceci dit.
Fermer